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摘 要 : [目的 /意义 ] 学 术 全 文本 下 的 关系 抽取 是 学 术 全 文本 知识 图 谱 构 建 的 关键 技术 ,所 构建 的 学 术 知 识 图 谱 能 够 实现 
文献 的 结构 化 、 知 识 化 ,提高 研究 人 员 检 索 文 献 、 分 析 文 献 和 把 握 科研 动态 的 效率 ,以 及 通过 图 谱 的 认 知 推理 ,有 
助 于 隐 式 知识 发 现 。 [ 方法/ 过程 ] 通 过 外 部 知识 来 增强 关系 抽取 已 在 不 少 研究 取得 成 果 , 但 针对 特定 领域 的 关系 
抽取 往往 缺少 可 用 的 外 部 知识 。 研 究 发 现 , 全 文本 中 自 有 的 高 置信 度 的 知识 也 可 以 用 来 辅助 全 文本 关系 抽取 。 
受 认 知 过 程 双 系统 理论 (系统 1 为 直觉 认 知 ,系统 2 为 推理 认 知 ) 启 发 ,设计 一 个 句子 级 模型 来 获取 知识 ,并 通过 
远程 监督 方式 获取 高 置信 度 知 识 , 然 后 将 高 置信 度 知 识 融 入 到 全 文本 级 深度 学 习 模 型 最 后 分 类 的 一 层 上 。[ 结 
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果 / 结 论 ] 在 生物 医学 学 术 全 文本 数据 集 (CDR-revised) 上 , 比 当前 最 先进 的 模型 在 Fl 上 提高 11.13% 。 
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和 关节 抽取 的 目的 是 为 非 结构 化 文本 中 的 实体 分 本 
WRR. ROREM, KRMITI H 

关系 抽取 和 全 文本 级 关系 抽取 。 句 子 级 关系 抽取 
的 旧 的 是 获取 句子 中 两 个 已 知 实体 之 间 的 关系 。 而 全 
3 关系 抽取 的 目标 是 在 包含 多 个 句子 的 长 文本 中 
最 多 个 实体 之 间 的 关系 。 全 文本 级 关系 抽取 样 例如 
图 正 所 示 。 关 系 抽取 是 知识 图 诺 构 建 的 关键 技术 。 学 
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章 中 ， 我 科 报告 一 个 
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术 全 文本 的 知识 图 谱 构建 自然 离 不 开 对 学 术 全 文本 下 
的 关系 抽取 研究 。 自 Google 于 2012 年 提出 知识 图 谱 
用 于 搜索 引擎 项 目 后 ,知识 图 谱 就 逐步 蔡 代 语义 网 成 
为 人 工 智能 领域 的 一 大 研究 热点 。 当 前 ,知识 图 谱 在 
语义 搜索 .智能 问答 、 知 识 工程 .数据 挖掘 和 数字 图 书 
馆 等 领域 有 着 广泛 的 应 用 。 而 将 知识 图 谱 与 学 术 全 文 
本 进行 结合 , 其 中 存在 许多 值得 研究 的 、 有 价值 的 
课题 。 


E s 了 次 迭代 


1 全 文本 级 关系 抽取 方法 示例 


学 术 全 文本 知识 图 谱 的 构建 从 是 否 围绕 学 术 研 究 
成 果 ( 也 就 是 一 篇 论文 ) 视 角 看 可 粗略 地 分 为 两 方面 : 
一 是 学 术 研 究 成 果 的 宏观 图 谱 构建 ,二 是 成 果 内 所 含 


学 科 知 识 的 微观 图 谱 构建 。 学 术 研 究 成 果 的 宏观 层面 
主要 包括 研究 者 的 相关 信息 、 研 究 成 果 发 表 的 载体 相 
关 信 息 .研究 方法 、 研 究 问题 研究 结果 研究 展望 . 引 


* 本 文系 江苏 省 自然 科学 基金 青年 项 目 “ 基 于 深度 学 习 的 学 术 全 文本 时 态 语义 知识 标识 及 检索 模型 构建 研究 "(项 目 编号 :BK20190450) 和 国 
家 自然 科学 基金 面 上 项 目 “ 基 于 深度 学 习 的 学 术 全 文本 知识 图 谱 构 建 及 检索 研究 "(项 目 编号 :71974094) 研 究 成 果 之 一 。 
作者 简介 : 卓 可 秋 , 博 士 研究 生 ; 沈 思 , 副 教授 ,博士 生 导师 ; 王 东 波 ,教授 ,博士 生 导师 ,通信 作者 ,E-mail: db. wang@njau. edu. en, 


收 稿 日 期 :2021 -11-24 修 回 日 期 :2022 -01-19 本 文 起 止 页 码 :120 -131 


本 文责 任 编辑 : 徐 健 


120 


Fhianann n rgRMMIEBHI 
CI nl lax IV 合 | FIT] f lj 


PTA, 沈 思 , X AGE. 自 有 知识 增强 下 的 学 术 全 文本 关系 抽取 研究 [J]]. 图 书 情报 工作 ,2022 ,66(7) :120 - 131. 


文 的 研究 问题 .引文 的 研究 结果 .引文 的 研究 方法 等 关 
系 。 学 术 研究 成 果 内 所 含 学 科 知识 主要 指 领域 知识 。 
例如 生物 医药 领域 ,在 一 篇 研究 论文 ”中 指出 他 克 莫 
司 这 种 化 学 物质 能 诱导 硬 皮 病 肾 危 象 ,从 该 研究 中 可 
得 出 化 学 物质 他 克 莫 司 与 疾病 硬 皮 病 肾 危 象 有 一 定 关 
系 。 笔 者 所 研究 的 关系 抽取 ,是 针对 第 二 种 情况 , 即 研 
究 从 学 术 研究 成 果 内 抽取 出 含 学 科 知识 的 关系 。 

在 过 去 的 几 年 中 ,人 们 已 经 提出 许多 方法 来 完成 
关系 抽取 任务 ,包括 传统 的 依赖 于 人 工 特征 工程 方 
法 ”以 及 基于 神经 网 络 的 模型 方法 ”“ ,基于 神经 网 
络 的 模型 方法 通过 端 到 端的 训练 来 提取 特征 并 达到 最 
先进 的 性 能 。 这 些 基 于 神经 网 络 的 方法 利用 位 置 特征 
来 获取 实体 信息 。 具 体 地 ,位 置 特征 给 出 每 个 词 与 两 
个 琵 体 的 相对 距离 作为 模型 的 输入 。 最 近 的 一 些 工作 
将 预先 训练 的 模型 (如 BERT) 应 用 到 关系 抽取 中 。 
虑 沁 全 文本 级 关系 抽取 中 存在 多 个 目标 实体 ,因此 一 
次 御 提 供 两 个 实体 信息 的 实体 标记 方法 不 再 适用 , 因 
六 到 们 不 能 一 次 性 提供 所 有 实体 的 信息 。 

:为 了 解决 上 述 问题 ,大 多 数 关于 全 文本 级 关系 抽 
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提供 了 提取 实体 对 特征 的 统一 方法 。 后 来 的 工作 通过 
改 肖 神 经 网 络 结构 ”或 添加 更 多 类 型 的 边 ”" 来 扩 
牙医 模型 方法 。 但 是 全 文本 级 中 的 实体 关系 抽取 极其 
复 寄 , 有 些 实体 关系 仅 从 全 局 加 局 部 混合 建 模 难以 达 
到 理想 结果 。 如 果 有 一 些 额外 知识 来 辅助 关系 判断 ， 
Jf GS dU CR 

为 此 ,笔者 提出 一 种 新 颖 的 自 有 知识 获取 模型 ,以 
增强 学 术 全 文本 关系 抽取 过 程 中 的 关系 判断 。 具 体 来 
说 :第 一 步 是 将 处 于 同一 个 句子 中 的 实体 对 进行 关系 
判断 。 判 断 过 程 除了 利用 SciBERT ”模型 外 ,还 增加 
了 一 个 多 视图 的 图 模型 ,以 增强 关系 的 判别 ,此 外 ,在 
得 到 句子 中 的 实体 对 关系 后 将 其 放 到 搜索 引擎 中 , 采 


是 先 获得 初步 的 全 文本 级 的 实体 对 关系 后 利用 第 一 步 
的 自 有 知识 来 提升 最 终结 果 的 准确 性 。 

需要 说 明 的 是 ,以 上 的 方法 结合 了 认 知 科学 中 的 
双 系 统 理论 ” 。 在 人 脑 的 认 知 系统 中 存在 两 个 系统 : 
系统 -1 和 系统 -2。 系 统 -1 是 一 个 直觉 系统 , 它 可 
以 通过 人 对 相关 信息 的 一 个 直觉 匹配 寻找 答案 ,非常 
快速 .简单 。 这 个 过 程 对 应 到 本 文中 从 句子 抽取 关系 
知识 模块 ,因为 从 全 文本 上 看 ,句子 层面 的 关系 更 加 直 
观 。 而 系统 -2 是 一 个 分 析 系 统 , 它 通过 一 定 的 推理 、 
逻辑 找到 答案 ,这 个 过 程 对 应 到 本 文 的 全 文本 关系 抽 
取 模 块 ,因为 该 模块 需要 涉及 各 种 语言 逻辑 推理 。 本 
文 的 主要 贡献 如 下 所 示 : 

(1) 提出 了 一 个 从 学 术 全 文本 中 获取 自 有 知识 来 
增强 学 术 全 文本 的 关系 抽取 。 这 是 第 一 项 从 自 有 知识 
的 角度 ,而 不 是 外 部 的 知识 (如 知识 图 谱 ) 来 增强 关系 
抽取 的 工作 ,同时 也 是 对 双 系 统 认 知 理论 的 一 种 验证 。 

(2) 引 入 了 多 视图 的 图 模型 .多 路 径 推理 网 络 和 
自 适 应 阔 值 选取 等 先进 的 技术 ,确保 了 学 术 全 文本 关 
系 抽取 的 精度 。 与 已 有 常见 深度 学 习 关 系 抽取 方法 相 
比 抽取 效果 提高 显著 。 

(3) 在 生物 医学 学 术 文 本 CDR-revised 和 GDA 数 
据 集 上 的 实验 结果 表明 所 提出 方法 的 有 效 性 ,尤其 是 
优 于 最 近 的 一 些 基 线 模型 。 促 进 学 术 全 文本 知识 图 谱 
构建 中 关系 抽取 关键 技术 的 进一步 完善 ,加 快 学 术 全 
文本 的 检索 以 及 知识 构建 的 落地 。 
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2.1 深度 学 习 下 关系 抽取 技术 演化 

采用 文献 内 容 分 析 法 ,笔者 总 结 出 深度 学 习 下 关 
系 抽取 的 技术 演进 。 如 图 2 所 示 , 关 系 抽取 技术 的 演 
进 主要 体现 在 单词 特征 、 外 部 知识 深度 模型 .训练 数 
据 集 规 模 、 抽 取 效 果 和 研究 领域 等 方面 。 在 单词 特征 
方面 ,先是 引入 了 单词 .词性 .语法 关系 `Wordnet 超 词 
等 特征 ,之 后 加 入 实体 类 型 标识 和 单词 位 置 等 特征 。 
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用 远程 监督 的 方式 进一步 确认 ,最 终 留 下 高 置信 度 的 
实体 对 关系 ,作为 自 有 的 高 置信 和 度 知识 ,简称 自 有 知 
识 。 需 要 指出 的 是 ,本 文 的 自 有 知识 由 于 未 经 过 人 工 
校 验 ,存在 一 定 误差 ,因此 不 能 称 为 真正 意义 上 的 知 
识 ,因为 所 谓 知 识 是 指 清楚 的 .事实 性 的 信息 。 第 二 步 
是 对 学 术 全 文本 进行 实体 提 及 编码 、 实 体 提 及 与 句子 
的 推理 建 模 、 自 适应 阐 值 选取 以 及 自 有 知识 增强 抽取 
实体 对 关系 等 一 系列 操作 ,完成 全 文本 级 的 关系 抽取 。 
简 言 之 ,第 一 步 的 作用 是 获取 自 有 知识 ,第 二 步 的 作用 


实体 类 型 的 引入 能 够 缩小 关系 的 类 别 范围 ,单词 位 置 
的 引入 能 够 体现 词 与 词 之 间 的 上 下 文 语义 信息 。 在 外 
部 知识 方面 ,一 开始 常用 的 方法 是 远程 监督 和 迁移 学 
习 , 近 两 年 更 倾向 知识 图 谱 的 融合 研究 。 事 实 上 远程 
监督 .迁移 学 习 和 知识 图 谱 融 合 都 能 在 一 定 程度 上 提 
高 关系 抽取 的 精度 ,但 由 于 知识 图 谱 能 提供 更 有 效 的 
辅助 信息 ,再 加 上 各 领域 知识 图 谱 的 逐步 完善 ,因而 研 
究 者 们 更 青睐 知识 图 谱 融 合 方式 作为 外 部 知识 来 提高 
精度 。 
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研究 领域 | 互联 网 文本 一 一 > tft j 


Qc ———Ó EEUU EEERU ERR ER rt | 


图 2 深度 学 习 下 关系 抽取 技术 演进 


在 深度 模型 方面 ,受到 通用 深度 学 习 模 型 的 逐步 
改进 ,关系 抽取 的 研究 也 不 断 地 引入 最 新 的 ,高 效 的 通 
用 模型 以 增强 抽取 效果 。 在 训练 规模 方面 ,同样 受到 
道 导 预 训练 语言 模型 的 影响 ,关系 抽取 的 研究 从 原来 
较 久 的 训练 数据 集 转 到 较 小 数据 集 上 ,以 适应 语 料 标 
本 大 的 现实 问题 。 在 抽取 效果 方面 ,经 过 5 -6 年 
LEE FL 得 分 提高 约 1076 ,效果 显著 。 在 研究 领域 
而 ,人 们 先是 采用 了 较 易 获取 的 互联 网 文本 (如 维基 
TED 作为 研究 对 象 ,后 来 随 着 研究 阵营 的 壮大 ,关系 
兵 蝙 研究 在 各 学 科 子 领域 逐步 开花 ,构建 出 各 领域 特 
4108 an Ei 
2.2» 关系 抽取 相关 研究 

>< 由 于 全 文本 级 的 关系 抽取 相 较 句子 级 的 关系 抽取 
复 昭 很 多 ,所 以 一 开始 人 们 主要 集中 在 句子 级 的 关系 
抽 服 研究 上 "””。 句 子 级 关系 抽取 的 目的 是 检测 句 
子 晒 实体 之 间 的 关系 。 现 有 的 句子 级 关系 抽取 模型 可 
以 分 为 两 类 :基于 序列 的 和 基于 依赖 关系 的 。 基 于 序 
列 的 模型 仅 对 单词 序列 进行 操作 ,可 以 是 单 向 序列 也 
可 以 是 双向 序列 “-”。 基 于 序列 的 模型 方法 实现 较 
简单 ,但 易 受 上 下 文 其 他 字 、 词 影响 ,难以 有 效 准 确 捕 
获 目 标 实体 对 的 语义 关系 。 基 于 依赖 性 的 模型 将 依赖 
树 合并 到 模型 中 ,从 设计 思路 上 看 这 类 模型 能 够 避免 
基于 序列 的 模型 易 受 上 下 文 其 他 字 、 词 的 干扰 ,但 实现 
困难 ,原因 主要 有 两 方面 :四 依赖 树 主要 依赖 句法 分 析 
生成 ,容易 导致 误差 累加 ;@ 将 依赖 树 模型 融入 深度 学 
习 模 型 ,这 种 融合 技术 目前 还 尚未 成 熟 。L. B. Soares 
等 研究 发 现 通过 实体 标记 ( entity marker) 方式 能 有 效 
提高 关系 抽取 的 准确 性 "”。 这 种 实体 标记 方式 在 后 
续 研究 中 被 普遍 应 用 。 

然而 在 通常 的 文章 行文 中 ,很 难 在 一 句 话 中 把 关 
系 描述 清楚 。 特 别 在 描述 中 含有 多 个 实体 和 多 个 关系 


时 ,一 般 需 要 通过 多 句 话 来 表达 。 这 就 要 求 有 能 力 在 
更 长 的 上 下 文句 子 间 提 取 关 系 。 最 近 的 工作 开始 探索 
全 文本 级 的 关系 抽取 。Y. Yao 等 利用 Wikipedia 和 
Wikidata 公开 的 一 个 大 规模 通用 数据 集 DocRED ,使 得 
全 文本 级 关系 抽取 有 了 很 大 的 进展 。 关 于 全 文本 
级 关系 抽取 的 大 多 数 方法 都 是 基于 图 神经 网 络 来 捕获 
句子 级 间 的 语义 信息 ” -2 。F，Christopoulou 等 通过 
共 现 和 启发 式 规则 构造 了 包含 不 同 粒 度 (句子 、 提 及 、 
实体 ) 的 图 ,在 没有 外 部 工具 的 情况 下 对 图 进行 建 
模 '” ;S.Zeng 等 构建 不 同 粒度 的 双 图 来 捕获 文档 感 
知 特征 和 实体 之 间 的 交互 ” ;Z，Guo 等 提出 一 种 细 化 
机 制 来 实现 对 整个 文档 的 多 跳 信息 进行 聚合 ,所 提 的 
LSR 模型 在 全 文本 级 关系 抽取 上 实现 了 较 好 的 性 
能 “” 。 图 神经 网 络 利用 图 结构 表达 节点 间 依 赖 关系 
的 先天 优势 ,能 够 一 定 程度 上 解决 序列 模型 受 上 下 文 
其 他 字 . 词 间 的 干扰 的 问题 ,但 鉴于 实际 计算 硬件 影 
响 ,图 神经 网 络 往往 需要 将 完整 的 一 张大 图 切 分 成 若 
干 小 图 ,适应 小 批量 端 到 端的 运算 机 制 ,这 种 大 图 中 找 
小 图 的 相关 实现 技术 还 有 待 进一步 研究 。 

W. Xu 等 设计 了 一 个 判别 式 推理 网 络 , 根 据 所 构 
造 的 图 和 每 个 实体 对 的 上 下 文 向 量 ,估计 不 同 推理 路 
径 的 关系 概率 分 布 ,从 而 识别 实体 对 之 间 的 关系 1。 
ATLOP 模型 是 已 知 在 当前 开源 全 文本 级 语 料 DocRED 
上 效果 最 好 的 模型 。 该 模型 提出 了 一 种 自 适应 阔 
值 技术 ,用 一 个 可 学 习 的 阀 值 类 代替 全 局 阔 值 。 这 种 
技术 消除 了 阔 值 调整 的 需要 ,并 且 使 得 阔 值 可 以 根据 
不 同 的 实体 对 进行 调整 ,从 而 获得 更 好 的 结果 。 

利用 已 有 的 知识 图 谱 来 指导 关系 抽取 是 关系 抽取 
f53 —^4 2 6 16) 7 77, RAE RE P Zr RC E SC 
体 关系 信息 ,可 以 有 效 弥 补 关系 抽取 训练 过 程 中 的 数 
据 不 充分 问题 。 融 合 知识 图 谱 的 关系 抽取 方法 ,主要 
有 以 下 几 类 :GD 从 模型 特征 的 角度 融合 ,将 实体 类 型 信 
息 加 入 到 注意 力 机 制 中 ,让 关系 抽取 模型 能 够 更 有 效 
地 捕捉 文本 语义 特征 ,从 而 提升 关系 分 类 效果 ;@ 从 监 
督 训练 的 角度 融合 ,对 知识 图 谱 进行 预 训练 ,利用 知识 
图 谱 的 圣 入 表示 对 关系 抽取 模型 进行 监督 ,有 效 降 低 
了 目前 关系 抽取 训练 集中 的 噪音 信和 号;@ 从 类 别 推理 
的 角度 融合 ,进行 了 零 样本 学 习 的 探索 ,通过 知识 图 谱 
的 层次 结构 , 捕 提 关系 和 关系 之 间 的 相关 性 ,让 某 些 训 
练 数据 极 少 的 关系 也 能 被 充分 识别 。 

Q. Chen 等 运用 同义词 .反义词 、 上 下 义 词 和 共 下 
义 词 的 基本 知识 ,帮助 建立 句子 对 之 间 的 软 对 齐 神经 
网 络 模 型 中 。 然 而 , 它 只 能 处 理 固定 数量 的 知识 类 
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型 ,而 且 在 训练 前 需要 预先 为 关系 赋值 ,这 限制 了 它 在 
实践 中 的 应 用 。Z，Wang 等 提出 了 一 种 知识 图 增强 的 
自然 语言 推理 (KGNLI) Big?" ,KGNLI 首先 从 给 定 的 
句子 对 中 提取 诸如 主语 .谓词 和 对 象 之 类 的 实体 ,然后 
基于 包含 这 些 实体 作为 节点 的 知识 图 学 习 知识 关系 表 
示 。 此 外 ,KCNII 还 通过 双向 长 短 时 记忆 (BiLSTM ) 网 
络 学 习 给 定 句子 之 间 的 语义 关系 表示 。 最 后 , KGNII 
将 这 两 种 表示 结合 起 来 ,并 将 其 输入 多 层 感知 器 以 确 
定 关系 的 标签 。 但 句子 对 间 决 定 它们 之 间 关 系 的 关键 
字 很 难 被 找到 ,KGNLI 也 不 例外 。M. E. Peters 等 提出 
一 个 知识 注意 力 和 上 下 文 重 构 (KAR) 组件, 对 BERT 
型 进行 改造 提升 BERT 模型 的 能 力 , 从 而 提升 关系 
抽取 的 能 力 2 。 但 KAR 仅 将 知识 图 谱 上 的 词 嵌入 与 
遍 列 中 的 词 嵌入 进行 融合 ,无 法 充分 发 挥 知识 图 谱 上 
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在 学 术 全 文本 关系 抽取 时 ,不 仪 要 考虑 句 内 的 语 
义 逻 辑 还 要 考虑 句 间 语 义 逻 辑 , 而 且 比 非 学 术 文 本 更 
加 注重 逻辑 推理 这 部 分 。 基 于 此 ,笔者 先 从 推理 入 手 
来 解决 学 术 全 文本 的 关系 抽取 问题 (对 应 图 3 右 半 部 
分 ) 。 下 面 详细 介绍 该 方法 。 
3.2. 基于 推理 的 学 术 全 文本 关系 抽取 

学 术 全 文本 的 关系 抽取 涉及 多 种 推理 ,主要 包括 
模式 匹配 、 人 逻辑 推理 、 共 指 推理 以 及 常识 推理 ”。 当 
前 大 部 分 的 相关 研究 都 仅 采用 一 个 图 模型 试图 将 实体 
对 经 过 多 跳 图 卷 积 后 得 到 相应 的 低 维 分 布 式 表 达 , 并 
以 此 计算 两 者 之 间 的 关系 ,完成 各 种 类 型 的 推理 。 这 
种 方式 虽然 能 一 定 层 度 上 达到 较 好 的 推理 效果 ,但 忽 
略 了 一 个 技巧 就 是 不 同 推理 形式 需要 不 同 的 建 模 策 
略 。 笔 者 参考 W. Xu 等 的 做 法 ,将 推理 分 为 句 内 推 


下 文 的 语义 表达 能 力 。 
3 ”研究 方法 


3.1 自 有 知识 增强 下 的 学 术 全 文本 关系 抽取 框架 

学 术 文 本 与 非 学 术 文 本 相 比 ,从 行文 上 来 说 更 加 
严谨 ,立论 的 论点 和 论据 更 明确 ,逻辑 更 清晰 ,由 此 市 
来 句子 更 复杂 ,上 下 文 的 逻辑 推理 关系 也 较 多 。 为 此 ， 
笔者 设计 出 一 个 自 有 知识 增强 下 的 学 术 全 文本 关系 抽 
取 模 型 来 提高 学 术 全 文本 中 关系 抽取 的 准确 性 。 如 图 
3 所 示 , 自 有 知识 增强 下 的 学 术 全 文本 关系 抽取 框架 
分 为 左右 两 大 部 分 。 图 的 左 半 部 分 用 于 获得 句子 级 的 
自 有 知识 ,图 的 右 半 部 分 用 于 获得 全 文本 级 的 实体 对 
关系 , 且 左 半 部 分 的 自 有 知识 用 来 指导 右 半 部 分 的 全 
文本 级 关系 抽取 。 
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3 自 有 知识 增强 学 术 全 文本 关系 抽取 框架 


理 , 逻 辑 推理 和 共 指 推理 并 对 这 3 种 推理 建立 不 同 的 
推理 路 径 并 建 模 '” 。 

通常 一 个 实体 对 包含 多 个 实体 提 及 ,也 就 是 说 一 
个 实体 对 之 间 的 关系 ,通过 以 上 的 3 种 推理 方式 能 够 
产生 好 多 种 关系 。 其 中 逻辑 推理 部 分 由 于 实体 提 及 
m, 可 能 存在 多 个 ,此 时 这 部 分 的 概率 也 会 有 多 个 。 本 
文 的 策略 是 , 留 下 一 个 概率 最 大 的 实体 提 及 对 的 关系 
作为 实体 对 可 能 的 关系 。 只 有 当 关 系 的 概率 大 于 某 一 
个 闵 值 时 才 输 出 该 关系 ,否则 输出 无 的 关系 。 下 面 介 
ZH Un fap de Y BOTH o 

RRK VG , OE — P 48983 BJ ABE 2 PL (EL 53 EE. Pr 做 
EE ode do 2A I Sz POSTE Pr Je P] 2 a] mJ E 3 P LEE 
的 获取 一 般 通 过 多 次 试验 计算 验证 集 的 Fl 指标 , 当 
Fl 指标 最 大 时 ,从 而 获得 一 个 全 局 概率 阔 值 。 这 种 方 
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法 存在 两 个 整 端 :中 不 一 定 适 合 所 有 类 别 ,如 类 别 1 需 
要 的 概率 阐 值 是 0.5 ,而 类 别 2 需要 的 概率 冰 值 可 能 是 
0.4; 书 需要 多 次 运行 验证 集 获取 全 局 概率 闵 值 ,时 间 

B W. Zhou 等 的 做 法 ,笔者 用 一 个 可 学 习 的 冰 
值 类 别 代 替 全 局 阐 值 ” 。 具 体 做 法 是 在 模型 训练 中 ， 
引入 虚拟 阀 值 类 别 ,将 正 例 类 别 和 负 例 类 别 分 隔 开 来 。 
要 求 所 有 正 例 类 别 的 概率 都 比 虚 拟 阔 值 类 别 的 概率 


义 信 息 。SciBERT 采用 学 术语 料 库 训练 而 成 , 它 与 普 
通 的 BERT 模型 在 词汇 上 仅 有 4296 的 重合 ,说 明 学 术 
领域 文本 和 一 般 领 域 文 本 之 间 常 用 词 差异 显著 。Sci- 
BERT 已 被 证 明 在 学 术 文 本 上 的 各 种 语言 任务 上 其 性 
能 优 于 普通 BERT 模型 。 将 句子 中 的 单词 以 token 的 
形式 输入 SciBERT, 经 过 编码 ,输出 H = | ho, hi, 
h,o, huis hajo WA ho 会 被 用 来 代表 句子 ,并 作 
为 类 别 标签 的 判断 。 笔 者 参照 了 Xue 等 的 方法 ,在 


高 ,同时 所 有 负 例 类 别 的 概率 都 比 虚拟 阔 值 类 别 概率 
低 。 在 模型 推断 时 ,返回 概率 高 于 虚拟 阔 值 类 别 的 类 
别 作为 预测 类 别 标签 ,或 者 如 果 没 有 高 于 虚拟 阔 值 类 
别 时 ,就 返回 无 这 一 类 别 标签 。 这 种 技术 使 得 阔 值 可 
以 根据 不 同 的 实体 对 的 关系 类 别 进行 调整 ,从 而 获得 
机 她 的 结果 ,同时 降低 了 多 次 运行 验证 集 获 取 阔 值 的 
时 全 复杂 度 。 
已) 笔者 研究 发 现 仅 靠 上 述 的 推理 方式 识别 学 术 文本 
电光 关系 ,虽然 能 一 定 程度 上 解决 需要 句 间 推理 与 句 
内 秘 理 的 问题 ,但 由 于 实体 间 的 超 长 依赖 ,导致 推理 过 
RAZ E FOE 词句 的 干扰 。 为 了 解决 该 问 
题 笔 者 提出 再 利用 一 个 句 内 推理 能 力 强 的 独立 模型 
滥 肖 一步 提 升学 术 全 文本 的 关系 抽取 。 下 面 详细 介绍 
这 ZB 独立 模型 , 即 自 有 知识 获取 模型 (对 应 图 3 左 半 部 
49s 
3,27 自 有 知识 获取 模型 
泊 受 认 知 科学 双 系统 理论 启发 ,笔者 尝试 先 从 句子 
中 获取 简单 的 、 明 确 的 实体 关系 ,然后 再 以 此 关系 辅助 
全 文本 关系 抽取 中 复杂 的 推理 。 
-句子 中 的 关系 通常 比较 明确 ,但 是 遇 到 多 实体 时 ， 
关系 的 自动 识别 效果 就 会 大 打折 扣 。 如 何 保证 所 获取 
的 关系 具有 较 高 可 信 度 是 值得 研究 的 课题 。 一 种 做 法 
就 是 只 从 少量 实体 的 句子 中 训练 模型 并 预测 含有 少量 
实体 的 新 句子 ,以 此 获得 新 句子 中 的 关系 。 一 般 来 说 
这 种 方法 所 获得 的 句子 关系 准确 率 较 高 ,但 这 种 会 漏 
掉 很 多 关系 知识 。 第 二 种 做 法 是 在 第 一 种 的 基础 上 ,再 
尝试 从 多 实体 的 句子 中 发 现 关系 ,但 这 种 方式 具有 较 大 
难度 ,需要 精心 设计 抽取 的 方法 。 笔 者 选取 第 二 种 方法 
来 获取 高 置信 度 的 实体 对 关系 。 从 图 3( 左 边 ) 看 出 , 主 
要 分 为 3 个 模块 :BERT 模块 ,多 视图 的 图 模块 和 远程 监 
督 模块 ,以 尽 可 能 获得 高 准确 性 的 实体 对 关系 。 从 句子 
中 所 获取 的 实体 对 关系 ,就 称 为 自 有 知识 ,能 够 用 于 后 
续 的 全 文本 关系 抽取 。 下 面 详细 介绍 3 个 模块 内 容 。 
3.3.1 BERT 模块 

笔者 使 用 SciBERT ”作为 编码 器 来 抽取 句子 的 语 


SciBERT 编码 器 输出 的 阳 上 增加 一 层 图 模块 ,然后 将 
学 习 到 的 图 与 bh。 结 合作 为 分 类 器 的 输入 。 下 面 介 
绍 所 增加 的 一 层 图 模块 , 即 多 视图 的 图 模块 。 
3.3.2 多 视图 的 图 模块 

(1) 高 斯 图 与 卷 积 计算 。BERT 模块 输出 的 H = 
iho ,hi,..h,| ,其 中 ho 是 由 句 首 的 | CLS] 得 来 ,无 需 传 
入 图 模块 。 将 剩余 的 编码 表达 输入 图 模块 ,并 将 它们 
标记 为 V = jos 对 v (i=1…m) 生 成 
N 个 高 斯 分 布 :| N,N ，,… ,Ns | ,其 中 高 斯 分 布 的 期 
望 和 方差 都 是 通过 可 训练 的 神经 网 络 获 得 。 之 所 以 采 
有 多 视图 方式 生成 高 斯 分 布 , 主 要 有 2 个 原因 :能 够 
尽 可 能 地 获得 token 的 各 种 含义 ;@ 在 不 知道 token 的 
先 验 分 布 时 ,选择 高 斯 分 布 是 一 种 比较 保险 的 决策 ， 
为 中 心 极限 定理 说 明 很 多 独立 随机 变量 的 和 近似 服从 
高 斯 分 布 ,很 多 真实 分 布 本 映 就 很 接近 高 斯 分 布 。 

(2) 动态 时 间 池 化 与 分 类 器 模块 。 在 每 一 层 卷 积 
之 后 都 会 接 一 个 动态 时 间 池 化 (DTWPool™ ) 。 对 于 
图 的 第 个 视图 , 先 计 算 各 节点 的 注意 力 , 然 后 采用 
SAGPool 的 方法 对 节点 进行 筛选 ,所 剩余 的 节点 集 
合 就 是 原 有 节点 集合 的 子 集 。 经 过 工 层 的 池 化 从 而 得 
到 工 个 图 |G,,G,,…, Gi| ,其 中 每 个 图 内 的 节点 都 是 
N 个 视图 的 并 集 。 由 于 每 个 句子 的 长 度 不 一 致 ,使 得 
图 中 含有 效 信息 节点 的 个 数 不 一 致 ,这 就 需要 有 一 种 
池 化 的 机 制 将 重要 的 节点 信息 保留 下 来 。 解 决 办 法 就 
是 引入 一 个 支持 节点 个 数 不 一 致 的 损失 函数 ,使 得 G, 
fill G, 的 差异 最 小 化 。 这 种 方式 能 够 最 大 层 度 捕获 更 
多 的 局 部 信息 。 最 终 的 结果 图 由 各 个 层次 的 图 归并 而 
成 。 由 于 各 层 上 图 的 节点 个 数 不 同 ,所 以 只 选择 与 图 
G 含 相同 节点 或 是 G1 子 集 的 图 。 

对 于 动态 时 间 池 化 最 终 输 出 的 图 ,再 经 过 一 层 最 
大 池 化 , 便 得 到 图 的 癌 量 表 示 。 该 图 的 问 量 表示 能 够 
辅助 BERT 模块 编码 所 得 到 的 表示 | CLS] Éy ho, LEX 
系 分 类 精度 更 准 。 将 h。 和 图 向 量 拼接 ,再 经 过 一 个 
softmax 层 ,就 能 得 到 句子 中 一 个 实体 对 的 关系 类 别 标 
签 。 当 句子 含 多 个 实体 对 时 ,重复 以 上 计算 ,每 次 只 判 
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断 一 对 实体 的 关系 。 
3.3.3 远程 监督 模块 

采用 BERT 模型 可 以 学 习 到 基础 的 语言 知识 , 改 
善 抽取 的 结果 ,但 依旧 摆脱 不 了 需要 依赖 于 打 标的 数 
据 。 针 对 上 述 问题 ,一 种 称 为 远程 监督 的 方法 应 用 而 
ETA 。 远 程 监督 也 称 为 弱 监 督 。 关 系 抽取 中 的 远 
程 监督 方法 主要 是 利用 知识 图 谱 中 的 实体 对 和 关系 ， 
到 各 种 可 获得 的 文本 中 比 对 , 当 实 体 对 同时 出 现在 文 
本 ,就 将 该 文本 当 作 是 包含 该 关系 。 笔 者 也 借用 这 种 
思想 ,将 上 文 所 获得 的 实体 对 放 到 搜索 引擎 中 查找 , 当 


Baifgig | 运动 障碍 左旋 多 巴 


资讯 


搜索 结果 的 前 topn 条 中 的 其 中 心 条 同时 包含 实体 对 ， 
就 将 实体 对 所 对 应 的 关系 认为 是 正确 的 关系 ,否则 就 
丢弃 该 实体 对 的 关系 。 实 验 中 ,topn 取 10,p 取 3。 之 
所 以 topn 取 10 是 因为 搜索 引擎 结果 首页 通常 为 10 条 
记录 ,首页 的 信息 已 足够 ,不 需要 再 用 到 其 他 页 内 容 。 
至 于 kL 取 3 请 见 下 文 的 4.6 小 节 。 如 图 4 所 示 , 实 体 
对 是 运动 障碍 和 左旋 多 巴 ,它们 在 百度 的 搜索 结果 中 
同时 出 现 , 且 符合 筛选 要 求 , 此 时 就 将 该 实体 对 保留 ， 
并 用 它们 的 关系 作为 知识 来 增强 后 续 的 全 文本 关系 
抽取 。 


的 运动 障碍 的 治 


li 


寻 医 问 药 网 百度 快照 
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3: 自 有 知识 增强 
QON 当 某 个 实体 对 在 全 文本 关系 抽取 的 结果 中 为 无 关 
系 时 ,判断 自 有 知识 中 所 确定 的 关系 ,如 果 自 有 知识 中 
存 本 关系 ,那么 就 把 该 实体 对 在 全 文本 关系 抽取 的 结 
果 葬 为 和 有 知识 中 的 关系 。 采 用 此 方法 的 原因 主要 
有 首先 , 句 内 推理 会 受到 其 他 句 的 一 些 上 下 文 信息 的 
,所 以 需要 一 个 单独 的 模型 来 获得 句 内 的 自 有 知 
识 。 其 次 ,如 果 把 所 获取 到 的 自 有 知识 融入 到 全 文本 
关系 抽取 模型 内 部 ,用 于 指导 其 他 实体 对 的 关系 抽取 ， 
这 对 模型 构造 来 说 相当 困难 。 再 次 ,如 果 通 过 判断 全 
文本 关系 抽取 中 实体 对 的 关系 概率 小 于 一 定 阔 值 时 ， 
就 将 自 有 知识 替换 实体 对 的 关系 。 这 种 情况 带 来 一 个 
问题 就 是 阔 值 难以 设 定 。 最 后 ,笔者 直接 采用 当 实 体 
对 在 全 文本 关系 抽取 的 结果 中 为 无 关系 时 替换 成 自 有 
知识 中 的 关系 ,这 种 方法 虽然 简单 ,但 经 过 实验 验证 ， 
确实 有 效 。 如 图 3( 右边 ) 所 示 , 全 文本 级 token 经 过 上 
文 所 述 的 基于 推理 的 学 术 全 文本 关系 抽取 步骤 后 ,经 
过 自 有 知识 增强 模块 来 最 终 判 定 实体 对 的 关系 类 别 。 
当 实 体 对 在 全 文本 关系 抽取 的 结果 中 为 无 关系 时 


2016 年 7 月 8 日 左旋 多 巴 适用 于 原 发 性 震颤 麻痹 症 
《Drugs》 的 一 项 由 美国 科学 家 进行 的 研究 介绍 了 左旋 多 巴 诱导 的 运动 障碍 的 治疗 。 运动 


及 非 药 原 性 震 颜 麻 冶 综 合 征 。2016 年 5 月 发 表 在 


4 远程 监督 模块 样 例 


关系 ,还 要 考虑 跨 句 间 实 体 对 逻辑 关系 ,涉及 实体 对 的 
长 依赖 问题 ,挑战 性 更 大 。@@ 从 现 有 公开 数据 集 
看 ,句子 级 的 实验 结果 明显 比 全 文本 级 (也 称 为 文档 
级 ) 高 10% -20% ,这 一 点 也 一 定 程度 上 说 明 句 子 
级 的 关系 结果 的 可 信 度 高 于 全 文本 级 的 关系 结果 。 因 
此 ,利用 自 有 知识 模块 中 抽取 的 简单 的 实体 关系 可 以 
部 分 替代 全 文本 级 模块 中 提取 出 的 结果 是 有 其 合 
理性 。 


4 ”实验 与 分 析 


4.1 学 术 全 文本 关系 抽取 数据 集 与 模型 参数 设置 
全 文本 关系 抽取 相关 的 公开 数据 集 主 要 包括 Do- 
cRED'*! CDRI 和 GDA 9!  。 所 有 这 些 都 涉及 到 跨 多 
个 句子 的 多 个 实体 的 关系 推理 ,具有 极 大 挑战 性 。Do- 
cRED 是 由 Wikipedia 和 Wikidata 构建 的 大 规模 数据 
集 。CDR 是 使 用 PubMed 构建 的 生物 医学 数据 集 , 涵 
盖 化 学 物质 与 疾病 的 二 元 关系 ,对 生物 医学 人 研究 具有 
重要 意义 。GDA 数据 集 也 是 一 个 二 元 关系 分 类 任务 ， 
于 识别 基因 和 疾病 的 相互 作用 , 它 在 MEDLINE Eo 


Cm 


被 蔡 换 成 自 有 知识 中 的 关系 的 合理 性 的 原因 有 以 下 两 
点 :中 与 句子 级 关系 抽取 相 比 ,全 文本 下 的 关系 抽取 更 
具 挑 战 性 。 因 为 后 者 不 仅 需要 考虑 句 内 实体 间 的 逻辑 


远程 监督 方式 构建 而 成 ,数据 集 的 质量 与 CDR 相 比 
较 差 。 笔 者 研究 的 是 学 术 全 文本 下 的 关系 抽取 ,所 以 
在 以 上 3 种 公开 数据 集中 选择 了 CDR 和 GDA 两 个 数 
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据 集 进行 实验 。 
表 1 为 数据 集 CDR 和 GDA 的 数据 量 特征 统计 。 


比 ,在 CDR-revised 和 GDA 数据 集 上 ,Fl 得 分 分 别提 高 
11.13% 和 0.35%。 在 CDR 数据 集 上 Fl 偏 低 , 是 因为 


CDR 数据 集 总 共 包 含 1 500 篇 文本 ,平均 分 成 3 份 , 包 
括 训 练 集 、 验 证 集 和 测试 集 ,所 有 数据 都 由 人 工 标注 得 
来 。GDA 数据 集 总 共 包 含 30 192 篇 文本 。 与 CDR 相 
比 , 每 篇 文本 平均 含 实体 数 少 2 ,每 篇 文本 平均 含 实 体 
提 及 数 少 0.7 ,而 每 个 句子 平均 含 实体 提 及 数 基 本 一 
致 。 需 要 说 明 的 是 ,笔者 在 研究 中 发 现 CDR 测试 数据 
集中 的 很 多 实体 对 关系 没有 标注 出 来 ,被 认为 是 无 关 
系 ,笔者 针对 这 些 无 关系 的 实体 对 ,重新 进行 人 工 校 
验 ,修正 了 161 个 实体 对 关系 ,这 一 部 分 测试 集 称 之 为 
CDR-revised 。 
表 1 数据 源 CDR 和 GDA 的 数据 量 特征 统计 


统计 CDR GDA 
训练 集 数 量 500 23 353 
验证 集 数量 500 5 839 
测试 集 数 量 500 1 000 
关系 数 2 2 
每 篇 文本 平均 含 实体 数 6.8 4.8 
” 每 简 文 本 平均 合 实 体 提 及 数 19.2 18.5 
y 每 个 句子 平均 含 实体 提 及 数 


全 笔者 采用 Apex 的 混合 精度 训练 方法 "进行 模型 
VER. exe 2 中 列 出 了 所 涉及 的 一 些 超 参数 。 所 有 超 
参数 都 在 开发 集 上 进行 调整 。 

>< X2 ”模型 参数 设置 


e 统计 CDR CDR-revised GDA 
«mdi fit A] ( batch size) 4 4 4 
5 > 学 习 率 (leaming rate) Se-5 Se -5 2e -5 
轮 次 (epoch) 110,20, 110,20 14,6,8,10, 
30,40] 30,40] 15,20} 
WREE 100 100 100 
( word embedding size ) 
SE Ma n p Est RE 20 20 20 
(entity type embedding size ) 
JH MERE 20 20 20 
( coreference embedding size) 
图 卷 积 网 络 层 数 2 2 2 
权重 消退 系数 0.0001 0.0001 0.0001 
优化 器 AdamW AdamW AdamW 


4.2. 与 其 他 模型 对 比 实验 

笔者 对 比 了 自 有 增强 模型 ESOKRE 与 其 他 类 似 的 
研究 成 果 , 包 括 BRAN! EoG! LSR! DHG! GL- 
RE SciBERT base ^" fi] ATLOP-SciBERTbase"" , M 
表 3(5 KAI, CFL 得 分 最 高 的 一 次 ) 可 见 , 本 文 的 自 
有 知识 增强 模型 ESOKRE 与 ATLOP-SciBERTbase 相 


该 数据 集 标注 结果 不 全 , 当 自 有 增强 模型 判断 出 的 实 
际 为 正确 的 关系 ,由 于 在 该 数据 集 上 没有 标注 而 被 误 
认为 是 无 关系 。 在 GDA 数据 集 上 本 文 的 模型 方法 提 
高 不 明显 ,是 因为 CDA 数据 集中 基因 与 疾病 的 关系 在 
行文 中 相对 明确 ,应 用 较为 简单 的 推理 既 能 达到 较 好 
效果 ,所 以 这 种 情况 下 本 文 的 自 有 知识 增强 能 力 就 很 
难得 以 体现 。 从 表 4 可 知 ,在 CDR 和 CDR-revised 数 
据 集 上 自 有 知识 增强 修正 的 关系 数 占 比 都 为 7.07% 。 
这 两 个 数据 集 修正 的 关系 数 相 同 但 F1 结果 不 同 ,是 因 
为 CDR-revised 是 在 CDR 基础 上 修正 过 的 。GDA 数据 
集 上 自 有 知识 增强 修正 的 关系 数 占 比 为 0. 40% ,修正 
数量 有 限 ,从 而 影响 最 终 的 Fl 得 分 提高 。 
表 3 数据 集 CDR,CDR-revised 和 GDA 
上 各 模型 F 1 结果 对 比 


模型 CDR CDR -revised GDA 

BRAN 62.10 z = 
EoG 63. 60 z 81.50 
LSR 64. 80 = 82. 20 
DHG 65.90 - 83.10 

GLRE 68.50 - - 
SciBERTbase 65.10 - 82. 50 
ATLOP-SciBERTbase 69. 40 64. 70 83. 44 


ESOKRE 67.90 75.83 83.83 


X4 自 有 知识 增强 前 后 关系 数 占 比 统计 


指标 CDR CDR-revised GDA 
关系 数 5 204 5 204 5 222 

增强 后 修正 的 关系 数 368 368 21 
增强 后 修正 的 关系 数 占 比 7.0796 7.0796 0. 4096 


4.3 消融 实验 

笔者 进行 了 模块 消融 实验 ,以 验证 所 提 方 法 不 同 
组 成 部 分 的 有 效 性 。 从 表 5 的 CDR-revised 数据 集中 ， 
可 观察 到 不 管 缺 失 哪 个 模块 性 能 都 有 所 下 降 。ES- 
OKRE 是 指 自动 获取 自 有 知识 并 通过 远程 监督 方式 增 
强 全 文本 关系 抽取 。“ ESOKRE - 自 有 知识 增强 ” 意 
味 着 仅 采 用 全 文 推理 ,而 不 是 融合 了 自 有 知识 。" ES- 
OKRE - 自 有 知识 中 SciBERT” 是 指 自 有 增强 模型 中 
BERT 模块 采用 RoBERTa 而 不 是 SciBERT。“ ESOKRE 
- 自 有 知识 中 图 模块 "是 指 自 有 增强 模型 中 少 了 多 视 
图 的 图 模块 。“ ESOKRE - 远程 监督 ”是 指 自 有 增强 
模型 中 少 了 远程 监督 模块 。 从 CDR-revised 数据 集结 
果 可 见 , 自 有 知识 增强 模块 和 BERT 模块 中 使 用 SciB- 
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ERT 对 模型 性 能 贡献 最 大 。 若 把 它们 从 整个 模型 方法 推理 是 有 效 的 。 此 外 , 自 有 知识 增强 模块 中 如 果 去 掉 


中 删除 时 ,Fl 得 分 分 别 下 降 6.72% $14. 3296 。 这 表 远程 监督 子 模块 ,Fl 得 分 下 降 了 1.91% ,这 说 明 远 程 
明 笔 者 提出 的 自 有 知识 增强 模块 辅助 全 文本 关系 逻辑 监督 子 模块 能 一 定 程 度 上 提高 自 有 知识 获取 的 精度 。 
表 5 数据 集 CDR 和 CDR-revised 上 的 知识 增强 模型 ESOKRE 消融 实验 


CDR CDR-revised 
模型 
Precsion Recall Fl-score Precsion Recall Fl-score 
ESOKRE 68.17 69.13 67.90 70.04 82.68 75. 83 
ESOKRE - 自 有 知识 增强 58.95 80.07 68.64 68.17 70.08 69.11 
ESOKRE - 自 有 知识 中 SciBERT 65.37 63.23 64.28 65.7 78.45 71.51 
ESOKRE - 自 有 知识 中 图 模块 66.05 67.1 66.57 68.56 81.32 74.39 
ESOKRE - 远程 监督 63.22 68.14 65.58 67.34 81.92 73.92 


需要 说 明 的 是 , 表 5 中 的 CDR 数据 集 增加 了 自 有 
知识 增强 模块 后 ,反而 Fl 得 分 下 降 , 其 原因 在 4.1 节 
也 有 提 过 ， 即 CDR 测试 数据 集中 的 很 多 实体 对 关系 没 
HEEK, 被 认为 是 无 关系 ,从 而 影响 了 实验 结果 。 
PB 笔者 所 提 方 法 在 fE GDA 数据 集 提高 不 明显 ,所 以 本 
JS BUG BIER 再 实验 该 数据 集 。 提 高 不 明显 的 原 
殉 芝 在 上 一 小 节 提 到 。 

4. T 训练 量 大 小 对 实验 结 人 
在 学 术 全 文本 知识 图 谱 构建 领域 ,对 于 训练 数据 
POETAREN Ra iu 


得 分 逐渐 增长 ,采用 ATLOP-SciBERTbase 模型 方法 时 ， 
F1 得 分 从 13.66 增长 到 63. 87。 采 用 笔者 所 提出 的 
ESOKRE 模型 方法 时 ,Fl 的 增长 幅度 和 速率 与 ATLOP- 
SciBERTbase 模型 方法 类 似 , 具 体 地 ,Fl 得 分 从 15. 83 
增长 到 75.83。 从 Fl 数据 的 变化 情况 可 见 ， Mesa 
量 对 学 术 文 本 的 关系 抽取 影响 较 大 ,但 也 不 是 说 只 

一 直 增 大 训练 数据 量 就 能 达到 相应 的 准确 性 ， eas 
练 量 与 准确 性 的 关系 不 是 线性 递增 的 ,这 个 结论 对 实 
践 具有 很 大 的 指导 意义 , 即 在 菜 领域 的 学 术 关系 抽取 
工作 中 ,需要 评估 人 工 标 注 的 具体 量 。 这 个 具体 量 的 
JE | 学术 关系 抽取 模型 性 和 的 提升 情况 。 笔 者 对 比 | 确定 方法 就 是 通过 迭代 的 方式 ,逐步 标注 ,训练 模型 ， 
wor. SciBERTbase fl] ESOKRE 两 种 模型 方法 随 训 | 并 评估 效果 , 当 评估 值 达 到 增长 曲线 上 的 拐点 时 ,基本 
Hes lit 的 变化 情况 ,实验 结果 如 表 6 所 示 。 两 种 模 | 就 能 凭 此 确认 待 标注 的 最 终 数据 量 。 

"jr t SCAM 练 量 从 10 篇 逐渐 调整 至 500 篇 时 ,Fl 


© R6 训练 量 大 小 对 实验 结果 的 影响 对 比 
(=P ATLOP-SciBERTbase ESOKRE 
Le 文本 量 / 简 Precision Recall Fl-score Precision Recall Fl-score 
im 47.80 7.9] 13.66 49.29 9.43 15.83 
50 61.00 45.53 52.14 61.20 47.15 53.26 
100 65.75 48.86 56.06 66. 70 49. 89 57.08 
150 66.28 50.98 57.63 66.29 53.42 59.17 
200 64.86 56.42 60.35 66.27 77.80 71.58 
250 66.22 55.93 60. 64 66.71 79.35 72.48 
300 66. 80 56.26 61.08 66. 76 79.67 72.65 
350 66. 08 58.29 61.94 66. 84 81.30 73.3 
400 67.50 57.40 62.04 67.17 80.33 73.16 
450 68.05 60. 08 63.82 68.18 82.93 74.83 
500 68.17 60. 08 63.87 70.04 82.68 75.83 


4.5 自 有 知识 关系 替代 方式 分 析 
上 文 研究 方法 章节 提 到 使 用 自 有 知识 关系 蔡 代 候 
选 的 全 文本 关系 的 方式 是 通过 实验 验证 获得 ,下 面 介 


换 ” 和 "直接 替换 "3 种 ,分 别 表 示 当 候选 的 全 文本 实体 
对 关系 的 结果 为 无 关系 且 自 有 知识 有 关系 时 进行 蔡 
换 、 当 候选 的 全 文本 实体 对 关系 的 结果 为 有 关系 且 自 


绍 该 实验 验证 过 程 。 笔 者 将 自 有 知识 关系 替代 候选 的 
全 文本 关系 的 方式 分 为 "无 关系 时 蔡 换 ”“ 有 关系 时 替 


有 知识 无 关系 时 进行 替换 、 以 及 直接 用 自 有 知识 的 关 
系 蔡 换 候选 的 全 文本 实体 对 关系 的 结果 。 从 表 7 可 
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JL, fe CDR 和 CDR-revised 数据 集 上 ,无 关系 时 替换 优 
于 直接 替换 ,直接 替换 优 于 有 关系 时 替换 。 之 所 以 产 
生 这 种 结果 差异 ,笔者 认为 在 实体 对 长 依赖 的 逻辑 推 
理 中 得 到 的 无 关系 结果 能 够 通过 自 有 知识 进行 补充 ， 


而 自 有 知识 中 没有 的 关系 贸然 蔡 换 通过 长 依赖 推理 出 
的 关系 本 身 就 不 合理 ,因为 有 些 关系 不 会 体现 在 句 内 ， 
而 是 句 间 。 


R7 自 有 知识 关系 替代 方式 对 比 


. CDR CDR-revised 
关系 替代 方式 
Precision Recall Fl-score Precision Recall Fl-score 
无 关系 时 替换 58.95 80.07 67.9 70.04 82.68 75.83 
有 关系 时 替换 73.59 51.35 60.49 73.59 44. 63 55.56 
直接 替换 5.978 62.3 61.01 74.23 67.23 70.56 


4.6 ”远程 监督 模块 中 参数 取 值 对 关系 抽取 结果 的 
影响 分 析 

上 文 提 到 在 远程 监督 模块 中 当 搜索 结果 的 前 topn 
条 中 的 其 中 条 同时 包含 实体 对 ,就 将 实体 对 所 对 应 
的 美 系 认为 是 正确 的 关系 ,否则 就 丢弃 该 实体 对 的 关 
系 纪 在 实验 中 ,topn 取 10, C3. p HC3 是 因为 取 该 
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值 能 获得 最 佳 的 Fl 得 分 。 图 5 是 在 CDR-revised 数据 
集 上 所 做 的 远程 监督 模块 中 不 同 w 取 值 对 关系 抽取 结 
果 的 影响 对 比 ,从 图 5 中 可 见 ,p 在 3 位 置 最 终 的 关系 
抽取 了 1 得 分 最 高 ,为 75. 83% ,而 取 值 小 于 3 或 者 大 于 
3 时 ,关系 抽取 的 Fl 得 分 都 有 所 下 降 。 
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图 5 远程 监督 模块 中 参数 不同 取 值 的 结果 对 比 


4 公案 例 研究 

守 笔 者 通过 案例 研究 以 进一步 说 明 所 提 模 型 ES- 
OKRE 与 基线 模型 相 比 的 有 效 性 。 如 图 6 所 示 ,ATLOP 
( APLOP-SciBERTbase 的 简称 ) 和 ESOKRE 都 可 以 成 功 
提取 实体 对 “nafcillin” 和 “interstitial nephritis” 以 及 实 
体 对 “nafcillin” 和 “bacteremia” 之 间 的 “药物 一 疾病 ” 关 
Ro 然而 ,只 有 本 文 的 模型 ESOKRE 能 够 提取 出 实体 
对 “daptomycin” 和 “ bacteremia” 之 间 的 “药物 一 疾病 ” 
关系 。 从 本 案例 可 见 , 虽 然 基 线 模型 在 CDR 全 文本 的 
实体 关系 矩阵 上 具有 一 定 的 推理 能 力 ,但 针对 个 别 情 
形 就 存在 不 足 。 例 如 本 案例 的 “daptomycin” 和 “bacte- 
remia "关系 ,从 第 [3] 句 中 可 推断 出 “daptomycin” 和 
“bacteremia "含有 ”药物 一 疾病 "关系 ,第 [1] 句 虽然 含 
有 两 者 的 实体 提 及 ,但 难以 明确 判断 二 者 的 关系 ,此 时 
通过 全 文本 的 推理 ,[1] 句 中 的 上 下 文 就 会 对 两 者 关 
系 推 断 产生 干扰 。 而 本 文 的 模型 ESOKRE 是 先 提取 
自 有 知识 ,通过 该 模块 运算 ,就 已 经 能 将 “daptomycin” 
和 “bacteremia” 的 关系 明确 下 来 。 


再 如 表 8 的 3 个 对 比 案例 ,所 列举 的 都 是 ATLOP 
模型 失效 而 本 文 所 提 ESOKRE 模型 有 效 的 例子 。 从 表 
8 中 的 第 1 个 案例 可 以 看 出 ,其 中 实体 “vancomycin” 和 
“nephrotoxicity” 在 第 [1] 和 [12] 句 中 就 能 明确 得 出 化 
学 物质 诱导 疾病 的 关系 。 同 样 地 ,从 表 8 中 第 2 个 案 
例 可 以 看 出 ,其 中 实体 “acute renal failure” 和 “chinese 
herbal "在 第 [4] 句 中 就 能 明确 得 出 化 学 物质 诱导 疾病 
的 关系 。 在 表 8 中 的 第 3 个 案例 中 ,也 是 类 似 在 第 [4] 
句 中 即 能 得 出 实体 “cerebral vasospasm” F“ cytarabine” 
的 关系 。 综 述 所 述 ,可 分 析 得 出 ALTOP 模型 之 所 以 失 
效 ,是 因为 受 上 下 文 其 他 句子 .实体 的 影响 , 按 目 前 的 
长 文本 语义 分 析 技 术 , 仅 靠 单 模型 很 难 有 效 解决 。 


5 


结语 


笔者 提出 了 一 种 利用 学 术 全 文本 的 自 有 知识 来 增 
强 全 文本 的 关系 抽取 的 有 效 方法 。 该 方法 从 句子 中 获 
得 实体 对 关系 后 将 其 放 到 搜索 引擎 中 ,采用 远程 监督 
的 方式 进一步 确认 ,最终 留 下 高 置信 度 的 实体 对 关系 ， 


128 


PTA, 沈 思 , ERR. 自 有 知识 增强 下 的 学 术 全 文本 关系 抽取 研究 [J]. 图 书 情报 工作 ,2022 


ChinaXiv 合 作 期 刊 


,66(7) :120 - 131. 


nephritis and relapsing bacteremia . 


source in patients who have failed or cannot tolerate standard therapy. 


[1] To report a case of methicillin-sensitive Staphylococcus aureus (MSSA) bacteremia with suspected MSSA meningitis 
treated with high-dose daptomycin assessed with concurrent serum and cerebrospinal fluid (CSF) concentrations. 
[2] DISCUSSION: Daptomycin was initiated in our patient secondary to possible nafcillin-induced acute interstitial 


[3] CONCLUSIONS: High-dose daptomycin may be an alternative option for MSSA bacteremia with or without a CNS 


实体 级 别 关 系 和 矩阵 
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aJe 1 interstitial nephritis 
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图 6 
图 中 特殊 的 数字 表示 关系 类 别 ID , 左 图 中 实体 间 未 连 线 表 


本 文 所 提 模 型 ESOKRE 和 基线 模型 的 对 比 案例 1 
: 示 两 者 无 关系 


ik: 


X8 模型 ESOKRE 和 基线 模型 的 对 比 案例 2 -4 


00803v1 


er ATLOP- 

cy 案例 实体 1 实体 2 SciBER ESOKRE 

eo Tbase 

CN [1]In vivo evidences suggesting the role of oxidative stress in pathogenesis of vancomycin- vancomycin nephrotoxicity 无 关系 化 学 物质 

O induced nephrotoxicity ; protection by erdosteine. ... [2 ]The aims of this study were to ex- 诱导 疾病 

N amine vancomycin ( VCM) -induced oxidative stress that promotes .. . [12]. . . important 关系 
mu role in the VCM-induced nephrotoxicity and the modulation of oxidative stress with. . . 

2 [1]Acute renal failure associated with prolonged intake of slimming pills containing an- acute renal chinese 无 关系 化 学 物质 
x< thraquinones. [2 ] Chinese herbal medicine preparations are widely available and often re- failure herbal 诱导 疾病 
© garded by the public. .. [4] We report a 23-year-old woman who developed acute renal fail- 关系 

ure following prolonged use of a proprietary Chinese herbal slimming pill that contained an- 
t£ thraquinone derivatives, extracted from Rhizoma Rhei (rhubarb)... 
E e [1 ] Acute encephalopathy and cerebral vasospasm after multiagent chemotherapy including cerebral cytarabine 无 关系 化 学 物质 
© PEG-asparaginase. .. [4]...and right-sided weakness with diffuse cerebral vasospasm on vasospasm 诱导 疾病 
magnetic resonance angiography after the administration of intrathecal cytarabine ... 关系 


作为 自 有 知识 。 接 着 ,采用 推理 建 模 、 自 适应 阔 值 选取 
以 及 自 有 知识 增强 等 一 系列 步 又 ,完成 全 文本 级 的 关 
系 抽取 。 实 验 结果 表明 ,笔者 所 提出 的 模型 在 CDR-re- 
vised 数据 集 上 获得 了 优 于 现 有 大 多 数 模型 的 性 能 。 
据 笔者 所 知 , 本 文 是 将 自 有 知识 融入 到 学 术 全 文本 关 


21(5) : e130 — e133. 


lone; a case report [ J]. American journal of therapeutics, 2014, 


[2 ] ZHOU G D, SU J, ZHANG J, et al. Exploring various knowledge 
in relation extraction[ C ]//Proceedings of the 43rd annual meeting 
of the association for computational linguistics ( acl’ 05). Michi- 


gan; ACL, 2005 ; 427 —434. 


系 抽取 中 的 首次 尝试 ,后 续 的 研究 计划 主要 有 以 下 几 
个 方面 :DD 研究 语言 学 上 的 逻辑 推理 ,辅助 关系 推理 
并 进一步 引入 认 知 科学 中 的 双 系统 理论 提高 学 术 全 文 | 上 
本 的 关系 抽取 ;@ 研 究 对 比 自 有 知识 增强 和 外 部 知识 


[3] 李冬梅 , 张扬 , FRI, 


T 


4] 王 嘉 宁 , 何 1 
华东 师范 大 学 学 报 ( 自 


. 实体 关系 抽取 方法 
计算 机 研究 与 发 展 , 2020,57 (7) :25. 
怡 , 朱 仁 煜 ,等 . 基于 


远程 监督 的 关系 


取 技 术 [ J]. 


然 科 学 版 ), 2020, 213(5) :122 - 139. 


增强 在 学 术 全 文本 关系 抽取 中 的 区 别 ;@@ 增 加 多 个 不 
同学 科 数 据 集 下 的 模型 性 能 对 比分 析 。 
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CCResearch on Relation Extraction of Academic Full-Text Based on Self-Owned Knowledge Enhancement 
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Abstract: | Purpose/Significance | Relation extraction under academic full-text is the key technology for the 
construction of academic full-text knowledge graph. The constructed academic knowledge graph can realize the struc- 
ture and knowledge of documents, and improve the efficiency of researchers retrieving documents, analyzing docu- 
ments and grasping scientific research trends, and cognitive reasoning through graphs contributes to implicit knowl- 
edge discovery. | Method/Process | Enhancing relation extraction through external knowledge has achieved results in 
many studies, but relation extraction for specific fields often lacked available external knowledge. The research in 
this paper found that the high-confidence knowledge in the full-text could also be used to assist the extraction of full- 
text relations. For this reason, based on the dual-system theory of cognitive processes (system 1 is intuitive cogni- 
tion, system 2 is reasoning cognition) , this paper designed a sentence-level model to acquire knowledge, and ob- 
tained high-confidence knowledge through remote supervision , and then high-confidence knowledge was integrated in- 
to the final classification layer of the text-level deep learning model. | Result/Conclusion | On the biomedical aca- 
demic full-text data set ( CDR-revised) , the F1 is about 11. 1396 higher than the current state-of-the-art model. 
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